A entregar de manera individual máximo el 24 de abril de 2018 23:59:59 CST (-0.5 por cada día de retraso) en tu carpeta alumnos/nombre_apellido/tarea_7

Con los datos que tenemos de flights queremos predecir el tiempo de retraso de salida DEPARTURE_DELAY

Evidencia S3



Evidencia Cluster





La tarea fue realizada en Zeppelin y se adjunta el código comentado


Incluimos librerias




Configuracion de Spark (para aseguranos de que todo este correcto)



Cargamos datos de flights




Preparamos datos




Pipeline




Separación de datos (train, test)




Magic loop





Selección de mejores params por algoritmo



Parámetros del mejor algoritmo


Los modelos probados fueron:

Con base en las métricas generadas y que se muestran a continuación podemos decir que el mejor modelo fue el tercero: Generalized Linear Regression con parámetro de regularización de 0.001 y un máximo de iteraciones de 2 y con la familia Tweedie. También pudimos notar que con los valores más bajos de regularización los errores disminuían y la \(R^2\) mejoraba. Finalmente, cabe señalar la gran similitud en las métricas entre el modelo de Regresión Lineal y Regresión Lineal Generalizado con kernel Gaussiano.


Tiempo de ejecución de la función de magic loop


Diagrama